智能论文笔记

ScanQA: 3D Question Answering for Spatial Scene Understanding

Daichi Azuma , Taiki Miyanishi , Shuhei Kurita , Motoki Kawanabe

分类：计算机视觉

2021-12-20

我们提出了一项新的3D问题答案的3D空间理解任务（3D-QA）。在3D-QA任务中，模型从丰富的RGB-D室内扫描的整个3D场景接收视觉信息，并回答关于3D场景的给定文本问题。与VQA的2D答案不同，传统的2D-QA模型遭受了对对象对齐和方向的空间理解的问题，并且从3D-QA中的文本问题中失败了对象本地化。我们为3D-QA提出了一个名为ScanQA模型的3D-QA基线模型，其中模型从3D对象提案和编码的句子嵌入中获取融合描述符。该学习描述符将语言表达式与3D扫描的底层几何特征相关联，并促进3D边界框的回归以确定文本问题中的描述对象。我们收集了人类编辑的问题答案对，自由表格答案将接地为3D场景中的3D对象。我们的新ScanQA数据集包含来自Scannet DataSet的800个室内场景的超过41K问答对。据我们所知，ScanQA是第一个在3D环境中执行对象接地的问答的大规模工作。

translated by 谷歌翻译

时间序列数据通常仅在观察过程中的中断时仅在有限的时间范围内获得。为了对这样的部分时间序列进行分类，我们需要考虑1）从2）不同时间戳绘制的可变长度数据。为了解决第一个问题，现有的卷积神经网络在卷积层之后使用全球池取消长度差异。这种体系结构遭受了将整个时间相关性纳入长数据和避免用于简短数据的功能崩溃之间的权衡。为了解决这种权衡，我们提出了自适应多尺度合并，该池从自适应数量的层中汇总了功能，即仅用于简短数据的前几层和更多的长数据层。此外，为了解决第二个问题，我们引入了时间编码，将观察时间戳嵌入中间特征中。我们的私有数据集和UCR/UEA时间序列档案中的实验表明，我们的模块提高了分类精度，尤其是在部分时间序列获得的短数据上。

translated by 谷歌翻译